NOTE

一些基本概念

OLTP vs OLAP

有监督离散化

数据立方的两种表:事实表和维度表

事实表:外键,来自维度表的主键

维度表:主键

用关系型数据库术语描述就是,键属性称为主键列。

事实表

事实表分成三种:事务事实表、周期快照事实表、累计快照事实表

事务事实表

官方定义是:发生在某个时间点上的一个事件。比如以订单为例:下单是一个事实、付款是一个事实、退款是一个事实,所有事实的累计就是事务事实表

周期快照事实表

如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实表,比如:以天举例,财务报表一般都是周期快照事实表,它的最细粒度主键就是:日期+订单

累计快照事实表

累计快照表,具有确定的开始和结束事件,并且记录关键事件或者过程的里程碑,它因此包含了很多日期的外键

判别模型和生成模型

从概率分布的角度考虑,对于一堆样本数据,每个均有特征XiX_i对应分类标记yiy_i

生成模型:学习得到联合概率分布 P(x,y)=P(x|y),即特征 x 和标记 y 共同出现的概率,然后求条件概率分布。能够学习到数据生成的机制。

判别模型:学习得到条件概率分布 P(y|x),即在特征 x 出现的情况下标记 y 出现的概率。

compare

贪心有监督和无监督预训练方法

P NP NPH NPC

泛化误差、偏差、方差,过拟合和欠拟合

KNN Bayes Decision-Tree

KNN

Bayes

Math Form: https://scikit-learn.org/stable/modules/naive_bayes.html

Decision-Tree

信息增益:https://www.numpyninja.com/post/what-is-entropy-and-information-gain-how-are-they-used-to-construct-decision-trees

裁剪:

知识发现的主要过程

评估分类器准确率的方法

正则化技术

关联规则——Apriori

关联规则的概念最早是在 Agrawal 等人在 1993 年发表的论文 Miniing association rules between sets of items in large databases 中提出。关联规则挖掘(关联分析)用于发现隐藏在大型数据集中的联系或者规律。如今随着数据行业的快速发展,我们面对的数据规模愈发巨大,人们对于挖掘海量数据中隐含的关联知识也越来越感兴趣。

计算概念

支持度 support

也就是 A 和 B 同时发生的概率
support(XY)=N(XY)Nsupport(X\rArr Y)=\frac{N(X\cap Y)}{N}

该指标作为建立强关联规则的第一个门槛,通过最小阈值(minsup)的设定,来剔除那些 “出镜率” 较低的无意义的规则:
support(Z)minsupsupport(Z)\ge minsup

置信度 Confidence

A 发生时 B 发生的概率(条件概率)
confidence(XY)=P(YX)confidence(X\rArr Y)=P(Y|X)
也要对置信度设置 最小阈值(mincon) 来进一步筛选满足需要的强关联规则。因此,继产生频繁项集后,需从中进而选取满足:
confidience(XY)minconconfidience(X\rArr Y)\ge mincon

提升度 Lift

置信度与支持度的比值
Lift(XY)=confidience(XY)support(XY)Lift(X \rArr Y)=\frac{confidience(X\rArr Y)}{support(X\rArr Y)}

算法流程与实例

改进-基于频繁模式树的算法 FP

信息增益的计算

详细实例

k-means k-cluster k-center

朴素贝叶斯分类计算

见上

K-means 计算实例

凝聚层次聚类法(全链接与单链接)

PageRank——马尔可夫矩阵的特征向量

PageRankRef

PageRankFormula

PageRank 优缺点

Hits——LTLL^TLLLTLL^T的特征向量

L 邻接矩阵

HitsRef

https://blog.csdn.net/hguisu/article/details/8013489

HitsFormula

Hits 优缺点

神经网络的正反向传播计算(sigmoid、ReLU、softmax 激活函数)

损失函数与极大似然


复习资料